Entropy
# Tag:
- Source/KU_ML
- Source/KU_DL
Entropy
정보의 불확실성 혹은 무질서도를 측정하는 척도.
자주 발생하는 값이라면 비트를 적게, 자주 발생하지 않는 값이라면 비트를 많이 할당한다면, 어떠한 data를 표현할 때 최대한 좋은 압축률로 압축 가능할 것이다.
의 의미는, 발생할 확률 가 낮을수록 많은 비트를 할당함을 의미한다. 이 때, 발생할 확률을 곱해 모두 더해 Weighed Sum으로 만들어 Entropy라고 한다.
즉, Entropy는 (발생할 확률) (bit 할당량)들의 합: 개별 event에 대해 얻을 수 있는 평균(Expectation) 정보량이 얼마나 큰지를 나타내는지에 대한 척도가 된다.
- 불확실성: 불확실성이 클수록 더 많은 정보를 필요로 하므로, Entropy가 커질수록 불활실성이 커진다.
- 확률이 균일할수록, 예측하기 어려워지므로 이는 불확실성의 증가를 의미해 엔트로피가 최대가 된다.
- 확률이 0.5에 가까울수록 그 값이 최대가 된다. 예측하기 어려워진다.
- 반대로, 0이나 1에 가까워지면 불확실성이 거의 없어지므로 그 값이 최소가 된다.